SoftMax是在致正面规范化的语言处理时现代神经网络的事实标准。然而,通过在词汇中产生致密概率分布,在每个生成步骤中具有非零机会,导致文本生成中的各种报告的问题。$ \ alpha $ - 彼得德·等(2019年,Arxiv:1905.05702)解决了这个问题,但比Softmax更慢。在本文中,我们提出了一种替代$ \ Alpha $ -Temax,它保持其良性特性,但与Optimized SoftMax一样快,并在机器翻译任务中实现PAR或更好的性能。
translated by 谷歌翻译
在NLP社区中有一个正在进行的辩论,无论现代语言模型是否包含语言知识,通过所谓的探针恢复。在本文中,我们研究了语言知识是否是现代语言模型良好表现的必要条件,我们称之为\ Texit {重新发现假设}。首先,我们展示了语言模型,这是显着压缩的,但在预先磨普目标上表现良好,以便在语言结构探讨时保持良好的分数。这一结果支持重新发现的假设,并导致我们的论文的第二款贡献:一个信息 - 理论框架,与语言建模目标相关。该框架还提供了测量语言信息对字词预测任务的影响的度量标准。我们通过英语综合和真正的NLP任务加固我们的分析结果。
translated by 谷歌翻译